Telegram Group & Telegram Channel
🔥 Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка

Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.

➡️ PingPong Benchmark тестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.

Оценка идет по трем критериям:
- Соответствие персонажу — насколько точно модель играет свою роль.
- Развлекательность — насколько интересны её ответы.
- Языковая грамотность — естественность и корректность речи.

Результат — усредненный рейтинг по всем параметрам.

➡️ Simple-Evals-RU — это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.

Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.

Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru ➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».

Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/llm_arena/39
Create:
Last Update:

🔥 Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка

Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.

➡️ PingPong Benchmark тестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.

Оценка идет по трем критериям:
- Соответствие персонажу — насколько точно модель играет свою роль.
- Развлекательность — насколько интересны её ответы.
- Языковая грамотность — естественность и корректность речи.

Результат — усредненный рейтинг по всем параметрам.

➡️ Simple-Evals-RU — это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.

Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.

Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru ➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».

Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇

BY LLM Arena





Share with your friend now:
tg-me.com/llm_arena/39

View MORE
Open in Telegram


LLM Arena Telegram | DID YOU KNOW?

Date: |

Telegram today rolling out an update which brings with it several new features.The update also adds interactive emoji. When you send one of the select animated emoji in chat, you can now tap on it to initiate a full screen animation. The update also adds interactive emoji. When you send one of the select animated emoji in chat, you can now tap on it to initiate a full screen animation. This is then visible to you or anyone else who's also present in chat at the moment. The animations are also accompanied by vibrations. This is then visible to you or anyone else who's also present in chat at the moment. The animations are also accompanied by vibrations.

Telegram Auto-Delete Messages in Any Chat

Some messages aren’t supposed to last forever. There are some Telegram groups and conversations where it’s best if messages are automatically deleted in a day or a week. Here’s how to auto-delete messages in any Telegram chat. You can enable the auto-delete feature on a per-chat basis. It works for both one-on-one conversations and group chats. Previously, you needed to use the Secret Chat feature to automatically delete messages after a set time. At the time of writing, you can choose to automatically delete messages after a day or a week. Telegram starts the timer once they are sent, not after they are read. This won’t affect the messages that were sent before enabling the feature.

LLM Arena from ms


Telegram LLM Arena
FROM USA